Conjunts de dades

Metodologia Quantitativa I (UPF)

Jordi Mas Elias

https://www.jordimas.cat/

Sumari

  • Warm up
  • Què és un conjunt de dades?
  • Observacions
  • Variables

Warm up

Corba d’aprenentatge

Què és un conjunt de dades?

Taula

Un nom genèric. Potser gairebé qualsevol cosa.

  • Taula periòdica
  • Taula de multiplicat
  • Taula de la veritat
  • Taula del Khi-quadrat
  • Taula fonètica

Dades

  • Font d’informació (FI): Material empíric cru.
  • Dades: FI recollida, processada, sistematitzada i organitzada (Van Evera 2009).
    • Nombres, caràcters, símbols … no tenen significat.
  • Base de dades: Col·lecció organitzada de dades emmagatzemada i accessible electrònicament / Col·lecció organitzada de dades que emmagatzema múltiples conjunts de dades.
  • Conjunt de dades: Col·lecció estructura de dades, generalment associada a un únic cos de treball.

Full de càlcul

Excel emmagatzema dades en dues dimensions:

Marc de dades / tibble

Una de les maneres1 d’emmagatzemar dades a R en dues dimensions: files i columnes2:

# A tibble: 17,548 × 9
   scode country      year polity2 xrreg xrcomp xropen xconst parreg
   <chr> <chr>       <dbl>   <dbl> <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
 1 AFG   Afghanistan  1800      -6     3      1      1      1      3
 2 AFG   Afghanistan  1801      -6     3      1      1      1      3
 3 AFG   Afghanistan  1802      -6     3      1      1      1      3
 4 AFG   Afghanistan  1803      -6     3      1      1      1      3
 5 AFG   Afghanistan  1804      -6     3      1      1      1      3
 6 AFG   Afghanistan  1805      -6     3      1      1      1      3
 7 AFG   Afghanistan  1806      -6     3      1      1      1      3
 8 AFG   Afghanistan  1807      -6     3      1      1      1      3
 9 AFG   Afghanistan  1808      -6     3      1      1      1      3
10 AFG   Afghanistan  1809      -6     3      1      1      1      3
# ℹ 17,538 more rows

Tidy data

Considerem un marc de dades net (tidy) si compleix els següents requisits (Wickham 2014):

  • Cada marc de dades té una única unitat d’observació.
  • Observacions: Es representen a les files.
  • Variables: Es representen a les columnes.
  • Cada cel·la indica un valor.

RStudio workflow

Load packages.

library(dplyr)
library(readr)
library(stringr)
library(forcats)

Observacions

Observar …

Necessitem decidir quines són les unitats d’interès.

Què és una observació?

  • Unitat d’anàlisi: Sobre què volem saber alguna cosa.
    • Determinada per la hipòtesi / pregunta.
  • Unitat d’observació: Què descriu cada fila del dataset.
    • Determinat per les dades.

Ethnic Power Relations, International Conflict Research.

# A tibble: 14 × 5
   countryname  year groupname statusname     groupsize
   <chr>       <dbl> <chr>     <chr>              <dbl>
 1 Belgium      1967 Flemings  JUNIOR PARTNER     0.59 
 2 Belgium      1967 Walloon   SENIOR PARTNER     0.4  
 3 Belgium      1967 Germans   IRRELEVANT         0.01 
 4 France       1967 French    MONOPOLY           0.976
 5 France       1967 Basques   POWERLESS          0.013
 6 France       1967 Corsicans POWERLESS          0.004
 7 France       1967 Roma      DISCRIMINATED      0.006
 8 Belgium      1968 Flemings  JUNIOR PARTNER     0.59 
 9 Belgium      1968 Walloon   SENIOR PARTNER     0.4  
10 Belgium      1968 Germans   IRRELEVANT         0.01 
11 France       1968 French    MONOPOLY           0.976
12 France       1968 Basques   POWERLESS          0.013
13 France       1968 Corsicans POWERLESS          0.004
14 France       1968 Roma      DISCRIMINATED      0.006

Nivell d’anàlisi

  • Nivell macro: Estats, regions, sistemes legals.
  • Nivell meso: Organitzacions, grups ètnics, partits polítics.
  • Nivell micro: Famílies, individus, relacions de persones.
    • Events: Bombardejos, contractes, atacs terroristes.
# A tibble: 477 × 8
   cowcode region  year country    no  coup successful combat
     <dbl>  <dbl> <dbl> <chr>   <dbl> <dbl>      <dbl>  <dbl>
 1      40      5  1952 Cuba        1     1          1      1
 2      40      5  1957 Cuba        1     1          0      1
 3      41      5  1950 Haiti       1     1          1      0
 4      41      5  1956 Haiti       1     1          0      0
 5      41      5  1957 Haiti       1     1          1      0
 6      41      5  1957 Haiti       2     1          1      0
 7      41      5  1957 Haiti       3     1          1      0
 8      41      5  1958 Haiti       1     1          0      1
 9      41      5  1970 Haiti       1     1          0      0
10      41      5  1986 Haiti       1     1          1      0
# ℹ 467 more rows

Coup Agency and Mechanisms Dataset

Fal·làcia ecològica

Quan la UA i la UO no concorden, tenim el risc d’incórrer en un problema de fal·làcia ecològica.

Fal·làcia ecològica

Eleccions Barcelona 2019, nivell de districte.

Fal·làcia ecològica

Eleccions Barcelona 2019, nivell de barri.

Fal·làcia ecològica

Eleccions Barcelona 2019, nivell de secció censal.

Variables

Què és una variable?

La característica de l’objecte que estem estudiant.

  • Varia: Prendrà diferents valors.
# A tibble: 6 × 5
  region municipality            religion   population suicide
  <chr>  <chr>                   <chr>           <dbl>   <dbl>
1 Isère  Grenoble                Protestant       8250     520
2 Isère  Grenoble                Catholic         1080      72
3 Isère  Le Bourg-d'Oisans       Protestant        325      12
4 Isère  Le Bourg-d'Oisans       Catholic          593      20
5 Isère  Saint-Jean-de-Maurienne Protestant        181       5
6 Isère  Saint-Jean-de-Maurienne Catholic          392      11

Tipus de variables (1a): Nominal

Categories no ordenables:

  • Municipi: Barcelona, Sant Cugat, Ripoll…
  • Religió: Cristianisme, Judaisme, Budisme…
  • Idioma: Alemany, Català, Suec…
  • Ideologia: Conservadorisme, Nacionalisme, Liberalisme…
  • Partits polítics: PSOE, PP, Cs, ERC…

També es diuen strings, stringr (Wickham 2022) | Cheatsheet.

Tipus de variables (1b): Nominal

  • Emmagatzematge: Character , factor

  • Operacions:

    • Igualtat: ==
    • Igualtat: %in%
    • No igualtat: !=

Tipus de variables (2a): Ordinal

Categories ordenables:

  • Mida: Petit, Mitjà, Gran.
  • Any: Infant, Jove, Adult.
  • Educació: Primària, Secundària, Terciària.
  • Idees: En contra, Neutral, A favor.

Per factors, forcats (Wickham 2021) | Cheatsheet.

Tipus de variables (2a): Ordinal

  • Emmagatzematge: Factor ordenat

  • Operacions:

    • Igualtat: ==
    • Igualtat: %in%
    • No igualtat: !=
    • Més que: >
    • Més o igual que: >=
    • Menys que: <
    • Menys o igual que: <=

Tipus de variables (3a): Interval

Nombres, el zero és arbitrari.

  • Any calendari: 2004, 2005, 2008, 2010.
  • Temperatura (except Kelvin): 10, 25, 30.
  • Ideologia: Left-right measured as 0-10.
  • Coordenades: Longitud i latitud.

Tipus de variables (3b): Interval

  • Emmagatzematge: Numeric , integer , date

  • Operacions:

    • Igualtat: ==
    • Igualtat: %in%
    • No igualtat: !=
    • Més que: >
    • Més o igual que: >=
    • Menys que: <
    • Menys o igual que: <=
    • Suma i difèrencia: +, -
    • Max i min: max(), min()

Tipus de variables (4a): Ratio

Nombres, zero té significat

  • Edat: 2, 5, 7, 9.
  • Percentatges: 0%, 34%, 100%.
  • Població: 200, 3345000, 13000000.
  • Índexs (not all of them): 0.245, 0.999.

Tipus de variables (4b): Ratio

  • Emmagatzematge: Numèric

  • Operacions:

    • Igualtat: ==
    • Igualtat: %in%
    • No igualtat: !=
    • Més que: >
    • Més o igual que: >=
    • Menys que: <
    • Menys o igual que: <=
    • Suma: +
    • Diferència: -
    • Multiplicació: *
    • Divisió: /
    • Altres: sqrt(), log(), exp(), max(), min(), mean()

Sumari

Tipus Característiques Vector Operacions
Categòrica nominal Categories no ordenables Caràcter o factor ==, %in%, !=
Categòrica ordinal Categories ordenables Factor ordenable ==, %in%, !=, <=, <, >, >=
Numèrica d’interval Nombres, zero sense significat Numèric o enter ==, !=, <=, <, >, >=, +, -
Numèrica de ràtio Nombres, zero amb significat Numèric ==, !=, <=, <, >, >=, +, -, *, / …

Bibliografia

Van Evera, Stephen. 2009. Guía para Estudiantes de Ciencia Política: Métodos y Recursos. Barcelona: Gedisa.
Wickham, Hadley. 2014. Tidy Data.” Journal of Statistical Software 50 (10): 1–23.
———. 2021. Forcats: Tools for Working with Categorical Variables (Factors). https://CRAN.R-project.org/package=forcats.
———. 2022. Stringr: Simple, Consistent Wrappers for Common String Operations. https://CRAN.R-project.org/package=stringr.